连载(6):统计图形艺术——箱线图
中国近代启蒙思想家、翻译家严复(1854-1921)提出,翻译力求信、达、雅。统计图形,亦须如此。信(faithfulness),指意义不悖原文,要准确传达数据原有之义,不偏离,不遗漏,也不要随意增减意思;达(expressiveness),指不拘泥于固有形式,译力求通顺、易懂、明白;雅(elegance),指选用的图形、样式要得体,力求简明、优雅。
生物医学研究产生的数据纷繁复杂,合适的统计图形能够准确、简明、优雅的勾勒出数据背后之意,消除医学-数据-内涵之间的障碍,准确传递生物医学研究成果,这就是医学统计图形的魅力。
历经半年准备,我们图形小组将按照数据可视化、统计可视化、集成可视化三个模块,连载推送医学研究中常用统计图形之背景、场景、拓展、要点。文稿有多处不足,请广大读者斧正。尚有多处示例待优化,欢迎提供素材。
箱线图Boxplot
箱线图,由美国著名数学家John W. Tukey于1977年的著作《Exploratory Data Analysis》[1]中首次提出,用来描述美国境内219座火山的高度的分布情况(图 6.1)。形如箱子,因而得名,也称箱须图(box-whisker plot)。
图6.1:美国219座火山高度
之箱线图
箱线图中间的线表示中位数(median),箱子的上下底,分别是上四分位数(Q3)和下四分位数(Q1),即箱体包含了50%的数据。箱子的高度在一定程度上反映了数据的波动程度 [2]。从箱体上下边缘起,向外侧延展1.5倍或3倍(常用1.5倍)的四分位间距(Q3-Q1)(图 6.2),在此范围之外的数据点通常被识别为潜在离群值(潜在异常值),以圆点表示,这也是由John W. Tukey在该著作中首次提出的概念。
图6.2:箱线图绘制
展示数值变量的分布情况。
识别异常值或离群值。
本节将以江苏省32055名青少年身高和性别等体检数据为例,示范箱线图的绘制和应用。
首先,绘制身高的箱线图(图 6.3)。
图6.3:江苏省青少年身高箱线图
众所周知,男生和女生的生长期有所不同,应按照性别分层分别绘制身高箱线图(图 6.4A)。
进而,以性别和学制等级进行分组,可更清晰地展示出,男女在身高上的差异在初中以后初步显示出来,而高中时期更为明显(图 6.4B)。
图6.4:江苏省青少年按性别、
学制等级分层身高箱线图
通过notch=TRUE参数,绘制出的中位数上下槽,即为95%的可信区间。
这种带凹槽的箱线图亦称为细腰箱线图。
通过观察组间凹槽是否交叉,以便于判断组间差异有无统计学意义(图 6.5)。如果凹槽之间不重叠,说明两组数据之间有较大的差异。
图6.5:江苏省青少年
按性别分层身高细腰箱线图
增强箱线图又称字母箱线图(Letter-value Boxplot)。传统的箱线图可有效展示数据的分布情况与异常值,但对于大样本数据来说,其所提供的信息在四分位数之外的情况下是十分模糊的。
而增强箱线图可满足这一需求,不仅可展示四分位数之外的数据分布信息,还可显示异常值的分布情况。
以中位数(M)为起点,向两端延伸,在距两端1/4(F),1/8(E),1/16(D),1/32(C),1/64(B),1/128(A),1/256(Z),1/512(Y)等分位数上采用更深的色和更窄的框,直到达到预设阈值。表示不同分位数的字母顺序为M、F、E、D、C、B、A、Z、Y [3]。
可见,较之普通箱线图,增强箱线图展示的信息更为细致(图 6.6)。
图6.6:江苏省青少年按学制等级、
性别分组的增强箱线图
小提琴图,作为箱线图的扩展类型,在组学研究领域广为使用。用以展示多组间数值变量(如基因表达水平)的分布差异。
事实上,小提琴图是箱线图与分布图的结合,在箱线图基础上,便于检阅数据的分布。
小提琴图中的分布图(图 6.7),可用核密度图或直方图来展示。
图6.7:江苏省青少年
按性别分层身高小提琴图
可在直方图或小提琴图中打上数据点。若具有相同Y值的点呈堆叠状,则为蜂群图,若为随机状,则为苍蝇图(图 6.8)。
图6.8:江苏省青少年
按性别分层身高蜂群图
07海盗图Pirate Plot
海盗图结合蜂群图、小提琴图、条形图的特点,在视觉上更有冲击力。形似一艘艘海盗船在海面上乘风破浪(图 6.9)。
图6.9:江苏省青少年按学制分层身高海盗图
一半为分布(形似云朵),一半为蜂群(形似雨点),因此得名。
例:续上例(图 6.10)。
图6.10:江苏省青少年
按性别分层身高云雨图
堆叠云雨图,是半小提琴图、箱线图、散点图的结合,可用于展示多组间数值变量的分布差异。
半小提琴图提供了数据的概率密度分布,传统的箱线图提供相应的四分位数间距,散点图则可展示原始数据。
三者相辅相成,是一种数据可视化集合应用范例。
例:本例将江苏省青少年按学校、性别分层后,展示堆叠云雨图(图 6.11)。
图6.11:江苏省青少年
按性别、学校分层身高堆叠云雨图
类似直方图,箱线图可用以描述数据的分布。但箱线图以多个统计量来描述数据的分布,而直方图以数据本身来展示数据的分布。 Tukey首次提出,箱体以1.5倍或3倍的四分位数间倍距(IQR)向外延伸,来识别潜在异常值。事实上,Tukey设定超出Q1/Q3以外1.5倍IQR距离为第一道屏障(inner fences),3倍IQR为第二道屏障(outter fences),在两道屏障之间的点被视为潜在离群值,而第二道屏障之外的点视为离群值。以正态分布为例,约99.3%的数据点位于(Q1-1.5×IQR, Q3+1.5×IQR)区间,即0.7%的数据位于第一道屏障之外,是小概率事件。而位于(Q1-3×IQR, Q3+3×IQR)之外的只有百万分之1.2;在常规的生物医学研究中,罕见百万级样本量,因此位于第二道屏障之外的点更可能是离群值。 常用的异常值识别方法还有:拉伊达准则(Pau Ta Criterion),亦称为3σ准则,仅限用于正态分布/近似正态分布,数值分布在(μ-3σ, μ+3σ)中的概率为0.9973,超出该范围的可认为是异常值;而6σ准则中,范围之外的概率仅为百万分之3.4。K近邻算法(K-nearest neighbor, kNN),该法基于当前点到其k-最近邻邻域范围内的所有点的距离的平均值来定义,离群因子越大,越可能是离群点。
参考文献:
Tukey JW. Exploratory data analysis / john w. tukey.
Cover T, Hart P. Nearest neighbor pattern classification. IEEE Transactions on Information Theory. 1967;13(1):21–7.
Hofmann H, Wickham H, Kafadar K. Letter-value plots: Boxplots for large data. Journal of Computational and Graphical Statistics. 2017;26(3):469–77.
写作:魏永越*,张隆垚
排版:李 颖
审阅:陈 峰
欢迎供稿 | 敬请斧正
easyPlot小组 (easyplot@126.com)
责任作者 (weiyongyue@126.com)
Powered by 百步科技
连载(2):统计图形艺术——线图
连载(3):统计图形艺术——饼图
连载(4):统计图形艺术——直方图
连载(5):统计图形艺术——点图
统计图形艺术——“图形”英文词意辨析